導(dǎo)讀:搜索引擎蜘蛛,在搜索引擎系統(tǒng)中又被稱之為“蜘蛛”或“機(jī)器人”,是用來爬行和訪問頁面的程序。今天,小小課堂網(wǎng)為大家?guī)淼氖恰端阉饕嬷┲胧侨绾闻佬信c抓取頁面的》教程。希
發(fā)表日期:2019-09-22
文章編輯:興田科技
瀏覽次數(shù):8938
標(biāo)簽:
搜索引擎蜘蛛,在搜索引擎系統(tǒng)中又被稱之為“蜘蛛”或“機(jī)器人”,是用來爬行和訪問頁面的程序。
今天,小小課堂網(wǎng)為大家?guī)淼氖恰端阉饕嬷┲胧侨绾闻佬信c抓取頁面的》教程。希望對大家有所幫助。
一、搜索引擎蜘蛛簡介
搜索引擎蜘蛛,在搜索引擎系統(tǒng)中又被稱之為“蜘蛛”或“機(jī)器人”,是用來爬行和訪問頁面的程序。
① 爬行原理
搜索引擎蜘蛛訪問網(wǎng)頁的過程,就好比用戶使用的瀏覽器。
搜索引擎蜘蛛向頁面發(fā)出訪問請求,該頁面的服務(wù)器則返回該頁面的HTML代碼。
搜索引擎蜘蛛將收到的HTML代碼存入搜索引擎的原始頁面數(shù)據(jù)庫中。
② 如何爬行
為了提高搜索引擎蜘蛛的工作效率,通常采用多個(gè)蜘蛛并發(fā)分布爬行。
同時(shí),分布爬行還分為兩種模式:深度優(yōu)先和廣度優(yōu)先。
深度優(yōu)先:沿著發(fā)現(xiàn)的鏈接一直爬行,直到?jīng)]有任何鏈接。
廣度優(yōu)先:先這一頁面上的所有鏈接爬行完畢之后,才會沿著第二層頁面繼續(xù)這樣爬行。
③ 蜘蛛必遵守的協(xié)議
搜索引擎蜘蛛在訪問網(wǎng)站之前,都會先訪問網(wǎng)站根目錄下的robots.txt文件。
搜索引擎蜘蛛不會去抓取robots.txt文件中禁止爬行的文件或目錄。
④ 常見搜索引擎蜘蛛
百度蜘蛛:Baiduspider
谷歌蜘蛛:Googlebot
360蜘蛛:360Spider
SOSO蜘蛛:Sosospider
有道蜘蛛:YoudaoBot,YodaoBot
搜狗蜘蛛:Sogou News Spider
必應(yīng)蜘蛛:bingbot
Alexa蜘蛛:ia_archiver
二、如何吸引更多搜索引擎蜘蛛
互聯(lián)網(wǎng)信息爆炸,搜索引擎蜘蛛不可能將所有網(wǎng)站的所有鏈接全部爬行到,那么如何吸引更多的搜索引擎蜘蛛到我們網(wǎng)站上來爬行變得非常重要。
① 導(dǎo)入鏈接
無論是外部鏈接,還是內(nèi)部鏈接,只有有導(dǎo)入,才能被搜索引擎蜘蛛知道該頁面的存在。所以,多多做外鏈建設(shè)有助于吸引更多蜘蛛來訪。
② 頁面更新頻率
頁面更新頻率越高,搜索引擎蜘蛛來訪的次數(shù)也會越多。
③ 網(wǎng)站和頁面權(quán)重
整個(gè)網(wǎng)站的權(quán)重以及某一頁面的權(quán)重(包括首頁也是頁面)影響著蜘蛛的來訪頻率,權(quán)重高、權(quán)威性強(qiáng)的網(wǎng)站一般都會增加搜索引擎蜘蛛的好感。
④ 與首頁的距離
首頁>一級目錄>二級目錄>三級目錄>四級目錄…很顯然,目錄越深蜘蛛來訪的幾率和次數(shù)就會越少,因?yàn)橐话阃怄湺际侵赶蚴醉摰?,首頁再向下爬行,只會越來越少?/p>
這里給大家的建議是,做外鏈的時(shí)候,不要只做首頁外鏈,偶爾做一做欄目和聚合頁面的外鏈也還是不錯(cuò)的哦~
有些時(shí)候,URL短,蜘蛛可能也會覺得這個(gè)鏈接的權(quán)重哦,所以,最好只做一級欄目,然后就是文章頁面。
三、搜索引擎蜘蛛地址庫
搜索引擎蜘蛛有一個(gè)專門的地址庫,用來存放已經(jīng)被發(fā)現(xiàn)的URL(已被抓取和未被抓取的都算,只要是被發(fā)現(xiàn)的URL都算),這樣就不會出現(xiàn)重復(fù)爬行和抓取頁面的情況了。
① 地址庫URL來源
蜘蛛抓取的頁面中發(fā)現(xiàn)的新的URL;
站長后臺自主提交的URL;
站長后臺提交的XML地圖中的URL;
站長后臺提交的網(wǎng)站URL;
② 對于未被抓取的URL
對于未被抓取的URL,不管是以什么方式獲取的,哪怕是搜索引擎蜘蛛自己發(fā)現(xiàn)的,也會先放入地址庫中,然后在做統(tǒng)一抓取。
四、頁面數(shù)據(jù)存儲
搜索引擎蜘蛛將抓取的頁面數(shù)據(jù)會存入搜索引擎的原始頁面數(shù)據(jù)庫中,其實(shí),就可以理解為快照中看到的頁面數(shù)據(jù),和用戶看到的是一樣的,每一個(gè)頁面的URL地址都有一個(gè)唯一的編號。
五、復(fù)制內(nèi)容檢測
搜索引擎蜘蛛在爬行的過程中,會進(jìn)行一定程度的復(fù)制內(nèi)容檢測。如果是權(quán)重低的網(wǎng)站上,發(fā)現(xiàn)了大量的轉(zhuǎn)載或抄襲內(nèi)容時(shí),可能會停止爬行,這些頁面可能也會不抓取與收錄。
但并不是說網(wǎng)站就不能轉(zhuǎn)載,像一些權(quán)重很高的平臺,哪怕是轉(zhuǎn)載了一篇舊聞排名也可以很好,因?yàn)樗阉饕嬷┲肟赡軙X得,就算是舊聞可能也是高質(zhì)量的吧。
以上就是小小課堂網(wǎng)為大家?guī)淼氖恰端阉饕嬷┲胧侨绾闻佬信c抓取頁面的》教程。感謝您的觀看。
喜歡記得,點(diǎn)贊,打賞哦。小小課堂網(wǎng),每天一個(gè)SEO原創(chuàng)視頻和圖文教程,別忘了關(guān)注哦。
更多seo教程搜索小小課堂。文章來源:https://www.xxkt.org/sogouseo
本文來源:A5上一篇:
暫無信息更多新聞
2019
搜索引擎蜘蛛,在搜索引擎系統(tǒng)中又被稱之為“蜘蛛”或“機(jī)器人”,是用來爬行和訪問頁面的程序。今天,小小課堂網(wǎng)為大家?guī)淼氖恰端阉饕嬷┲胧侨绾闻佬信c抓取頁面的》教程。希
View details
2020
關(guān)于seo優(yōu)化,有一種奇怪的現(xiàn)象,就是有很多網(wǎng)站排名長期穩(wěn)定,突然之間就消失了?在對這些網(wǎng)站進(jìn)行分析后,發(fā)現(xiàn)它們的共同之處在于,這些網(wǎng)站會出現(xiàn)百度快照中奇
View details
2020
關(guān)于seo優(yōu)化,對于細(xì)分行業(yè)的用戶來說,無論新網(wǎng)站還是老網(wǎng)站,都需要對其進(jìn)行優(yōu)化,從而使其能夠通過相關(guān)關(guān)鍵字進(jìn)行查詢,從而對搜索結(jié)果進(jìn)行適當(dāng)?shù)膬?yōu)化。怎樣
View details
2020
關(guān)于seo優(yōu)化。有關(guān)站點(diǎn)seo優(yōu)化方法的文章被抓了個(gè)大把,很少有人看到這些文章可以從中挖掘出有價(jià)值的技術(shù),大部分人都是在看。有些文章確實(shí)有seo的技術(shù)含
View details